Large Language Model

Nice overview of language models covering recent developments and future directions. It also covers topics like linguistic units, structures, training methods, evaluation, and applications.

https://twitter.com/johnjnay/status/1635315780685565952?s=20

"Reliable AI markup Language" Adds Structure, Type & Quality Guarantees to LLMs

-Pydantic-style validation of LLM output

-Enforces structure & type guarantees

-Dialect of XML

When validations fail:

-Re-asks LLM

-Filters outputs

-Or fixes outputs

https://twitter.com/hillbig/status/1635359284249919488?s=20

巨大言語モデルでプロンプトで本文中学習（in-context learning）する際、言語モデル学習データ由来の事前知識を本文中学習で上書きする能力、事前知識に無い抽象的な入出力関係を学習する能力、高次元入力を線形分類する能力は大きいモデルで初めて創発される。

https://twitter.com/johnjnay/status/1635637398057934848?s=20

A New LLM Pre-training Paradigm

1) Training objective aligns predictions of

left-to-right LM

right-to-left LM

trained in reverse

2) Bidirectional inference enables both to meet in middle

-Outperforms strong baselines in code & lang generation

https://twitter.com/santa128bit/status/1635571630658449409?s=20

中国語特化でChatGPT同様にRLHFなどで強化されたモデルが出てきた。すでに人間の好みにかなり近い応答を生成できるようになっているとのこと。

英語圏AI界隈で話されてる哲学概念（ワルイージ効果、ロコのバジリスク、ペーパークリップ最大化AI、ショゴスに仮面）をまとめた解説があった。有難い。

https://twitter.com/needle/status/1635602117019996168?s=20

Building A Virtual Machine inside ChatGPT

https://www.engraved.blog/building-a-virtual-machine-inside/

AIの中にマルチバース

AIのメモリを与えると、万能チューリングモデル

AIによるAIの改善

プロンプトエンジニアリング = 微調整を仮説, 勾配効果

メタラーニングをプロンプトだけで行える可能性

メタバース = AI?

https://twitter.com/johnjnay/status/1637843926840164353?s=20

Customizing LLMs:

-Supervised fine-tuning on your tasks

-Self-supervised learning (SSL) on your text

-RL w/ your reward model (RM)

-Filter high-temp outputs w/ RM

-Conditional SSL on RM-scored text

-Prompt w/ context

-Give it access to your tools

-Train (soft) parts of prompts

https://twitter.com/johnjnay/status/1637807590481559553?s=20

Potential Massive Labor Market Impact of LLMs

-Researchers assess job tasks based on exposure to GPT capabilities

-80% of U.S. workforce may have 10%+ of their tasks affected

-19% may have 50%+ tasks impacted

-Higher-income jobs are most exposed

https://twitter.com/hillbig/status/1637192435511218180?s=20

LLMがこのようなことができる（もしくはできない）ことを説明する研究は既に多くでていると思います。LLMが次の単語予測タスクを目標とした自己教師あり学習を介して様々な能力を獲得でき、特に言語については言語自体が持つ構造（特に構成性）も利用していること、またin-context learningが自己注意機構を利用したメタ学習によって実現していることがわかっており、諸現象の全てではないですが重要な部分の多くはそれを説明できる材料はでていると思います。逆にhallucinationが起きる原因も検討がついています。もちろん未解決な問題もあります。

いえいえ、ただ言語モデルを使ってそういう実験できるようになってわかってきたのはこの一年、半年の話です。また、実際よくわかってないことも多いです。幻覚については大きく記憶の汚染（破滅的忘却と同じ）と個別の汎化の制御ができてない（ある場合は汎化してよくて、ある場合は汎化すると間違える）ことが問題で、表現方法と記憶の固定方法の両面で改善が必要だと思います。さらにモデルサイズを大きくするだけで解消するか（少なくとも記憶の汚染は防げる）、rlhfでいけるか（少なくとも確信度はあたっているので、わかっていない場合にわかってないと言わせるのはできそう）、記憶の新手法が必要か（疎にするとか）はわかってないです。ただ幻覚は2回聞くと間違っていることに気づくことも多いのでプロンプト改善でもかなりいけそうなきはします

岡野原さんかっけ〜〜

https://twitter.com/kazunori_279/status/1637215827715067906?s=20

この辺りを詳解したブログか書籍を読みたい。。 "特に言語については言語自体が持つ構造（特に構成性）も利用していること、またin-context learningが自己注意機構を利用したメタ学習によって実現していることがわかっており"

https://twitter.com/hayashiyus/status/1637041887218642945?s=20

ChatGPTなどのLLMの学習には，人間のフィードバックに基づいて出力を改善していく強化学習プロセス RLHF が含まれている．そのため，これらLLMを人間のフィードバックを学習プロセスに含まない他の言語モデルと同列にして評価することはできない，という批判があった

ところが，昨年末に公開された論文 "Constitutional AI: Harmlessness from AI Feedback" で，人間によるラベル付けや監督なしに，自己改善を通じて有害な出力を回避するAIアシスタントを訓練していく方法を提案された．そして，このAIアシスタントによるフィードバックに基づいて出力を改善していく強化学習プロセス RLAIF が "harmlessness versus helpfulness Elo scores" という指標を使った場合に RLHF よりも優れていることが示された

すべての質問に「わからない」と答えるAIアシスタントは無害だが，もちろんまったく役に立たない．その逆に，すべての質問に対して自信たっぷりに答えるAIアシスタントは有用かもしれないが，ときどき大嘘をつくかもしれない．つまり，AIアシスタントには「有害さ」と「有用さ」という2つの評価軸についてのトレードオフ関係があり，この論文で提案された強化学習プロセスは，むしろ人間によるラベル付けや監督を使わない方が「有害さ」と「有用さ」のバランスが取れたモデルを開発できる可能性を示した

https://twitter.com/Quebec_AI/status/1636521672227291136?s=20

CS324 - Large Language Models

https://stanford-cs324.github.io/winter2022/

https://twitter.com/ML_deep/status/1636520577044480003?s=20

んー、難しい。疑問点が

1.学習データが自然言語言語なのだから、そのように作られたモデルにとってクエリが自然言語なのはベストに見えるけど、実は違ったりする？

2.そもそも学習時に自然言語（文章）じゃない何かを与える形式が良いかも？

と、スコープが推論のみなのか学習まで及ぶのか

ChatGPT 関係で自分が根源的にわかってないのは「クエリが自然言語であることが実は本質的なのか」なんですよね。なんかの部品として使うなら、も少し機械的なクエリを組みたくならんか、と思うのだけど、これは自然言語モデルに対するクエリは自然言語でやるのが実は最も効率的だ、という話なのか

https://twitter.com/umiyuki_ai/status/1636545456124854273?s=20

学生はLLMについて何を研究すればいいか？やる事はいくらでもある　①プロンプトの研究。GPT-4だとどういうプロンプトがイケるのか、よーいドンのフロンティアだ　②評価の研究。既存のベンチマークはLLMの性能のブチ上がりについていけてないから新しいベンチマークを作ろう。言語モデルを一般的に評価する方法は未解決の問題　③人間がLLMをどんなふうに使ってるかの研究　④LLMの安全性、アラインメントの研究　⑤インコンテキストラーニングやCoTが機能する理由は解明されてないから研究する　⑥創発能力の研究。何故創発能力が起きるのか？今後どんな創発能力が増えていくか予測できないか？小パラメータモデルにも創発能力を持たせる方法は？　→RT

https://twitter.com/santa128bit/status/1636545132995686401?s=20

自動的な多段階推論とツール利用を組み合わせることで、few-shot promptingとautomatic CoTを大幅に超える改善ができたとする論文。GitHubもあるので試せそう。

https://twitter.com/hyuki/status/1636537028623073281?s=20

#ChatGPT と非常に興味深い対話を行ったので、みなさんぜひリンク先の文章をお読みください。ちょっと長いですが、最後まで順番にお読みいただくと驚きます。私は驚きました。

https://twitter.com/shion_honda/status/1632208104510324736?s=20

Emergent Abilities of LLMs Wei+, 2022, TMLR

LLMを一定以上のFLOPsで事前学習させると下記2つの能力が”創発”するという現象を報告したサーベイ。

- few-shot promptingにおける非連続な精度向上

- 新たなprompting戦略の獲得（例：CoT、instruction tuning）

大規模言語モデルの脅威と驚異

https://speakerdeck.com/chokkan/20230327_riken_llm

Can LLMs Critique and Iterate on Their Own Outputs?